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马 静 何 雪 枫 简 旭 文 
(南京 航空 航天 大 学 经 济 与 管理 学 院 ”南京 210016) 


摘要 : 【 目的 】 设 计 一 种 “特征 词 条 本 体 ” 的 自动 构建 及 进化 算法 。[ 应 用 背景 ] 热门 话题 产生 的 时 间 和 话题 演化 
往往 是 快速 的 , 且 涉 及 领域 广泛 , 而 现 有 的 本 体 自动 构建 研究 局 限于 具体 领域 的 知识 表达 ,无 法 有 效 地 对 这 种 
动态 热门 话题 进行 本 体 语 义 支 持 ,也 不 能 进行 有 效 跟踪 与 优化 。【 方法 】 通 过 对 热门 话题 中 关键 事件 的 内 容 分 析 
并 由 特征 词组 合 而 成 的 “特征 词 条 本 体 ” 来 描述 热门 话题 的 方法 , 设计 一 种 快速 自动 生成 “特征 词 条 本 体 ” 的 算法 ; 
在 初始 本 体 指导 下 ,利用 话题 跟踪 结果 进行 “特征 词 条 本 体 ” 进 化 算法 的 设计 ， 以 满足 不 断 更 新 的 话题 语义 表述 
需求 。【 结果 ] 针对 热门 话题 “ 魏 则 西 百度 推广 事件 ” 使 用 候 虫 工具 采集 11 174 条 新 浪 微 博 作为 语料库 进行 实验 ， 


抽取 生成 拥有 7 421 个 特征 词 条 、39 个 特征 词 节点 、781 
有 24 564 个 特征 词 条 , 67 个 特征 词 节点 , 1 818 个 特征 词 
0.1261, 0.0964, 0.5985, 优 于 TF-IDF 算法 。[ 结论 】“ 特 和 


个 特征 词 关系 的 初始 本 体 ， 基于 话题 跟踪 结果 进化 为 拥 
关系 的 进化 本 体 ， 其 漏 报 率 、 误 报 率 、 损 耗 代价 分 别 为 
FE 词 条 本 体 ” 的 表述 方式 明显 比 单个 词汇 的 本 体 表述 准确 


率 高 , 且 语 义 相 似 度 更 容易 计算 ,比较 符合 动态 热门 话题 的 快速 语义 处 理 。 


关键 词 : 特征 词 条 “本体 生成 ”本体 进化 ”话题 跟踪 
分 类 号 : TP391 G353 


1 引 
随 着 互联 网 信息 的 爆炸 , 海量 文本 的 语义 识别 与 


了 中 


要 方法 得 到 研究 者 的 极 大 关注 趾 。 本 体 被 引入 计算 机 
科学 中 作为 知识 表示 的 方法 并 被 广泛 使 用 , 包括 : 知 
识 工程 、 智 能 信息 处 理 、 软 件 工程 、 自 然 语言 处 理 等 
诸多 领域 , 并 将 成 为 语义 网 、 基 于 知识 的 下 一 代 智 能 
计算 、 信 息 抽取 和 智能 检索 等 许多 领域 的 基础 和 关 
键 站 。 由 于 本 体 构建 中 概念 及 其 关系 的 建 模 大 多 都 需 
要 手工 构建 ， 人工 构建 本 体 存 在 成 本 高 、 构 建 时 间 长 
并 极其 依赖 专家 的 参与 程度 等 一 系列 的 问题 , 成 为 本 
体 构建 的 障碍 站。 
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自动 或 半自动 本 体 构建 成 为 近年 研究 探索 的 热 
点 。 目 前 , 本 体 自动 构建 方式 主要 有 三 种 : 

(1) 通过 聚 类 算法 获取 研究 领域 内 的 概念 与 关系 
进行 构建 。Lin 等 外 在 其 本 体 自动 构建 研究 中 通过 
CBC(Clustering By Committee) 聚 类 发 现 领域 概念 ; 
Srivastava 等 上 研究 了 从 文本 信息 中 获取 本 体 的 层次 以 
及 关联 关系 ,分 别 使 用 相似 度 度量 聚 类 (Similarity- 
based Clustering) 、 集 合理 论 聚 类 (Settheoretic Clustering) 
两 种 方式 进行 本 体 关联 的 挖掘 聚 类 研究 ,并 分 析 了 这 
两 种 方法 的 聚 类 有 效 性 效率 和 可 跟踪 性 ; 何 婷 婷 等 四 
提出 了 一 种 多 重 聚 类 技术 自动 构造 本 体 的 方法 。 

(2) 根据 已 有 的 词典 或 术语 表 自 动 构建 本 体 。He 
等 中 与 Lim 等 外 给 出 了 获得 概念 分 层 语义 关系 的 方法 : 
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从 语料库 中 抽取 术语 , 分 别 根据 已 有 术语 表 或 词典 计 
算术 语 之 间 的 相似 性 和 语义 分 类 层次 , 同时 结合 词汇 
在 表达 相同 主题 的 各 文本 中 所 具有 的 重要 性 , 构建 各 
术语 之 间 的 语义 关系 ; 马 静 等 中 选择 使 用 NASA 作词 
表 , 将 广泛 的 航空 产品 类 概念 进行 本 体 映 射 , 构建 航 
空 产品 的 领域 本 体 ; 唐 爱 民 等 5 提出 利用 半 结 构 化 文 
本 作为 本 体 的 知识 源 ， 基 于 词汇 功能 语法 理论 对 句子 
进行 分 析 , 将 原文 中 语法 表述 的 文字 转换 成 语义 表述 ， 
从 而 获取 本 体 。 

(3) 通过 网 络 或 者 领域 图 来 挖掘 概念 间 的 层次 关 
系 进行 本 体 构建 Chen 等 中 提出 基于 自 适 应 谐振 网 络 
和 贝 叶 斯 网 络 的 领域 本 体 自动 构建 算法 ; 侯 饮 等 '" 提 
出 一 种 基于 图 上 随机 游 走 的 词汇 加 权 算 法 ,获取 候选 
概念 进而 自动 构建 领域 本 体 。 郑 学 伟 呈 采用 基于 图 的 
构建 原理 , 在 关系 运算 中 采用 基于 频繁 信息 子 图 的 
gSpan 算法 得 到 本 体 。 

上 述 研究 中 ,第 一 种 研究 方向 可 以 将 相似 概念 聚 
集 在 一 起 , 但 是 无 法 获得 概念 与 概念 之 间 的 关系 描述 ; 
第 二 种 研究 方向 利用 语言 分 析 技 术 涉 及 的 学 科 多 日 跨 
度 大 ,完全 实现 本 体 自 动 构建 很 困难 ; 第 三 种 研究 方 
向 随 着 领域 图 或 网 络 中 顶点 数量 的 增加 ,本 体 概念 与 
关系 抽取 的 准确 率 就 会 下 降 ， 自 动 构建 本 体 尚 不 能 满 
足 实际 应 用 的 需求 。 同 时 ， 随 着 网 络 熏 情 事件 的 影响 
力 越 来 越 大 ， 面 向 动态 热门 话题 的 自动 本 体 构建 需 
求 迫 切 , 而 现 有 的 本 体 构建 方法 都 因 局 限于 某 些 已 
知 领域 的 积累 ,因而 无 法 快速 产生 热门 话题 的 相关 
本 体 。 

本 文 提出 一 种 “特征 词 条 本 体 ” 的 概念 ， 从 首发 新 闻 
报道 中 快速 自动 生成 一 个 热门 话题 的 核心 语义 ,实现 对 
话题 的 语义 表述 ; 基于 词汇 间 共 现 关系 设计 “特征 词 条 
本 体 ” 抽 取 生 成 算法 ; 在 此 基础 上 设计 基于 不 断 演化 的 
话题 跟踪 结果 下 “特征 词 条 本 体 ”进化 算法 。 

2 “特征 词 条 本 体 ” 自 动 生成 的 算法 设计 
2.1 “特征 词 条 本 体 ” 的 提出 

对 于 动态 热门 话题 中 的 新 闻 内 容 ， 有 些 词语 与 目 
标 话题 关系 密切 ， 有 些 词 语 则 和 话题 没有 太 大 关系 ， 
单单 计算 词语 的 词 频 无 法 获知 新 闻 与 话题 关系 的 密切 
程度 。 然 而 新 闻 内 容 中 某 些 具有 特定 关系 的 词组 却 能 
在 很 大 程度 上 体现 一 个 话题 的 语义 特性 , 例如 在 “ 魏 


现代 图 书 情报 技术 


则 西 百度 推广 事件 ”的 话题 中 ,，( 魏 则 西 ， 百度 ,事件 )， 
(百度 , 推广 , 事件 ) 等 词语 组 合 几乎 会 在 所 有 新 闻 内 
容 中 出 现 , 这 类 词组 表示 该 话题 的 关键 事件 进而 表述 
话题 的 核心 语义 , 同时 车 一 条 待 检测 的 新 闻 中 频繁 包 
含 该 类 词组 ,其 与 目标 主题 相关 的 可 能 性 就 很 大 。 其 
次 通过 对 不 同 概率 分 布 的 特征 词 条 的 区 分 , 还 能 概括 
出 该 话题 下 不 同 子 事件 , 例如 在 魏 则 西 百度 推广 事件 
的 话题 中 ( 魏 则 西 ， 莆田 ， 医院 )， (医院 , 莆田 , 责任 ) 等 
词 条 在 某 些 新 闻 内 容 中 出 现 频率 较 高 ,反映 了 目标 话 
题 下 不 同 侧重 点 的 子 事件 。 

本 文 将 能 够 表示 话题 中 关键 事件 语义 的 特征 词组 
合 定义 为 特征 词 条 ， 其 数学 符号 为 c, c={wi,w2…}, 其 
中 wi, w2… 为 组 成 该 词 条 的 特征 词 。 由 特征 词 条 组 成 
并 用 来 描述 话题 的 集合 , 本 文 将 其 定义 为 “特征 词 条 
本 体 ”， 其 数学 符号 为 C, C={c1,c2…}。 
2.2 ”特征 词 条 抽取 与 初始 本 体 生成 

特征 词 条 是 利用 特征 词 之 间 的 共 现 关系 , 将 共 现 
概率 高 的 几 个 特征 词组 合 在 一 起 以 表示 话题 中 的 特定 
内 容 。 本 文 利用 特征 词 之 间 的 互信 息 值 来 计算 词 的 共 
现 概率 , 词 wi 与 wj; 的 共 现 概率 M(wi,wj) 计算 公式 
如 下 : 


p(wi, wj) 
PCwi)p(wj) 

其 中 ，p(wi,wj) 为 特征 词 wi 与 wj 在 同一 句子 中 
出 现 的 频率 ，p(w;) 与 p(wj) 分 别 为 wi 与 wj 在 训练 集 
中 各 自 的 出 现 频率 。 

“特征 词 条 本 体 ” 抽 取 生 成 的 过 程 如 下 : 

(1) 创建 临时 词组 集合 G1, G,, G;， 两 两 计算 特 
征 词 互 信息 值 M(w;,w;) ， 当 值 大 于 阔 值 Tu 时 , 将 词 
组 (wi,wj) 加 入 词组 集合 Gi 中 。 

(2) 对 临时 集合 G| 进行 判断 ， 若 G; 为 空 , 结束 抽 
取 过 程 ， 此 时 “特征 词 条 本 体 ”C 为 特征 词 的 集合 , 若 
G1 不 为 空 , 则 继续 特征 词 条 的 抽取 。 

(3) 取 G; 中 第 一 个 特征 词组 (wi,w;)， 遍历 
若 发 现存 在 MIwiwo)>Tn， 
M(wj,whb)>Tn， 则 将 (wbwijwb 加 入 G;， 和 否则 将 
(wi,wj) 加 入 到 集合 G3, 并 将 (wi,wj) 从 Gi 中 去 除 。 

(4) 重复 步骤 (3)， 直 至 临时 集合 G1 为 空 , 并 对 
G, 集 合 进行 判断 , 若 G, 为 空 , 结束 抽取 , 集合 G3 即 


M(wi, wj)= (1) 


Wirls Wit2'""Wn ， 


为 “特征 词 条 本 体 ”C, 若 G, 不 为 空 , 则 继续 特征 词 条 
抽取 。 

(5) 将 G，, 集合 中 特征 词 条 加 入 到 G , 将 G, 清空 ， 
重复 以 上 步 又 寻找 特征 词 条 ， 直 至 临时 集合 G 为 空 
时 ，G, 也 为 空 ， 此 时 集合 G; 即 为 “特征 词 条 本 体 ”C 。 
2.3 ”特征 词 节点 权重 的 生成 

得 到 “特征 词 条 本 体 ”C 后 ， 需要 计算 单个 特征 词 
在 “特征 词 条 本 体 ” 中 的 权重 ， 以 表述 该 特征 词 的 重要 
程度 。 本 文 从 网 络 图 的 角度 出 发 , 将 “特征 词 条 本 体 ” 
集合 中 的 词 条 看 成 是 由 特征 词组 成 的 网 络 图 , 利用 词 
与 词 之 间 的 关系 ( 即 网 络 图 中 的 两 个 特征 词 节点 间 的 
连 线 ) 计 算 单 个 特征 词 权 重 。 

首先 根据 词 条 出 现 的 次 数 计算 词 条 权重 , 则 词 条 
ci 在 训练 集中 的 权重 计算 公式 为 : 

ti 
之 

其 中 , 是 词 条 ci 在 训练 集中 出 现 的 次 数 ，》 
是 所 有 词 条 在 训练 集中 出 现 的 次 数 之 和 , 两 者 相 除 即 
为 词 条 ci 的 权重 。 在 此 基础 上 , 计算 两 个 特征 词 
wi,Wj 之 间 关 系 ( 即 网 络 图 中 两 点 的 连 边 ) 的 权重 , 其 
计算 公式 如 下 : 


Q(ci)= 


2) 


>» {Q(ci), Q(c;) :小 
> Q(edgei) 


其 中 ，{Qci,Qci 是 词 条 本 体 中 出 现 了 wi,wj 连 
接 关 系 的 特征 词 条 集合 ，2> ,{Q(ci),Q(ci) 是 集合 
{Qci,Qci 中 词 条 权重 之 和 , 并 进行 权重 的 归 一 化 处 
理 ， 除 以 网 络 图 中 所 有 关系 的 权重 和 > Q(edgei) ,得 
到 wi,wj 关 系 权重 Q(edge;) 。 利 用 公式 (3), 可 以 求 出 
网 络 图 中 有 连 线 的 两 两 特征 词 关系 的 权重 , 在 此 基础 
上 , 求 出 网 络 图 中 每 个 特征 词 节 点 的 权重 。 特 征 词 wi 
的 权重 计算 公式 如 下 : 


六 {Q(edgei;), Q(edgeikt) 全 
k 


Q(edgeij) = (3) 


Q(wi)= (4) 


其 中 ，{Qoge, ,Qoqee, “是 网 络 图 中 与 特征 词 节 
点 Wi 关联 边 的 集合 ，》,{Q(edgei),Q(edgex ) 是 集 
合 {Qeqee, ,Qedee, “1 中 关联 边 的 权重 之 和 ,并 除 以 特 
征 词 节点 wi 的 度 k， 即 求 出 “特征 词 条 本 体 ” 中 特征 词 
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wi 的 权重 QCwi) 。 


3 ”基于 话题 跟踪 的 “特征 词 条 本 体 ” 进 化 的 
算法 设计 

本 体 构建 后 需要 不 断 添加 新 的 概念 以 满足 实际 需 
求 ,因此 需要 依据 相应 的 理论 、 方 法 及 标准 对 本 体 的 
概念 、 结 构 及 关系 进行 完善 ， 即 本 体 进 化 所 5 
(Ontology Evolution)。“ 特 征 词 条 本 体 ” 同 样 需要 在 话题 
跟踪 结果 的 基础 上 不 断 添 加 新 的 语 料 , 实现 其 自身 的 
概念 与 关系 的 完善 

本 体 进 化 的 基础 是 加 入 大 量 话题 相关 的 语 料 , 本 
文采 用 话题 跟踪 的 方式 寻找 相关 新 闻 : 

(1) 计算 待 检测 新 闻 d 与 现 有 “特征 词 条 本 体 ”C 
的 相似 度 值 ， 使 用 向 量 空间 模型 (Vector Space Model， 
VSM) 分 别 描述 新 闻 d 与 “特征 词 条 本 体 ”C, 将 d 与 C 
的 相似 度 计算 抽象 成 两 个 对 应 向 量 的 相似 度 计算 ,并 
用 数学 上 的 向 量 余弦 公式 定量 化 计算 为 : 


> Qu(wD)xQ(Cwi) 
sim(d,C) =—— (5) 


OQ wi)O wi) 
i isl 


其 中 ，Qg(w;) 为 wi; 在 待 检 测 新 闻 d 中 出 现 的 频 
率 ，Q(wi) 为 公式 (4) 计 算 的 特征 词 wi 的 权重 ，n 为 向 
量 空间 中 出 现 特征 词 的 数量 。 

(2) 将 相似 度 值 计算 结 果 sim(d,C) 与 设 定 判 断交 
值 T 相 比较 , 判断 它 是 否 为 主题 相关 , 若 结果 大 于 判 
断 闻 值 Ti, 则 判定 新 闻 d 是 目标 话题 DD 的 相关 内 容 。 

本 文 在 算法 中 岩 入 一 个 比 判 断 冰 值 Ti 大 的 进化 
阅 值 T ， 如 果 相 似 度 sim(d,C) 大 于 也 ， 则 认为 该 新 
闻 d 不 仅 话 题 相关 , 而 且 可 以 描述 话题 D, 将 其 加 入 
“特征 词 条 本 体 ” 的 训练 集中 。 完 成 话题 检测 与 跟踪 之 
后 ,， 利用 新 的 训练 集 快速 抽取 生成 进化 本 体 ， 基于 话 
题 跟 踪 的 “特征 词 条 本 体 ” 进 化 算法 思路 如 图 1 所 示 : 
归于 进化 阔 值 的 报道 完善 话题 本 体 


图 1 基于 话题 跟踪 结果 的 “特征 词 条 本 体 ” 
进化 思路 
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4 实验 设计 及 分 析 


依据 算法 进行 实验 ,实验 环境 使 用 的 是 南京 航空 
航天 大 学 信息 管理 与 电子 商务 研究 所 的 数据 挖掘 与 语 
义 分 析 研 究 平台 。 根 据 提出 的 整体 研究 思路 ,选择 近 
期 热门 的 “ 魏 则 西 百度 推广 事件 ”作为 目标 话题 ,以 新 
浪 微 博 内 容 作 为 新 闻 语 料 ， 进行 “特征 词 条 本 体 ” 的 自 
动 生成 与 进化 实验 。 在 实验 结果 分 析 中 , 为 了 验证 “ 特 
征 词 条 本 体 ” 在 话题 语义 表述 上 的 有 效 性 ,选取 基于 
词 频 的 TF-IDF 算法 进行 话题 跟踪 与 检测 的 对 比 实验 ， 
使 用 TDT459 作 为 标准 , 评测 两 种 方法 的 跟踪 效果 。 
4.1 实验 数据 

(1) 微 博 数据 的 采集 

实验 需要 两 种 类 型 的 微 博 : 与 “ 魏 则 西 百度 推广 
事件 ”相关 的 和 不 相关 的 微 博 。 为 了 采集 实验 所 需 的 微 


表 1 微 博 的 时 间 分 布 与 话题 相关 性 结果 
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博 数据 ,使 用 研究 平台 中 的 新 浪 微 博 抓 取 爬 虫 于 2016 
年 5 月 13 日 至 2016 年 5 月 22 日 连续 10 天 对 微 博 语 
料 进行 增 量 爬 取 , 去 除 字 数 过 少 微 博 与 重复 微 博 ( 指 微 
博 id 重复 , 而 不 是 内 容重 复 ), 共计 获得 微 博 11 174 
条 。 其 中 5 月 13 日 至 5 月 17 日 以 微 博 系统 自身 的 话 
题 划 分 为 依据 候 取 “ 魏 则 西 百度 推广 事件 ”相关 微 博 共 
计 4 480 条, 作为 初始 词 条 本 体 生成 的 训练 集 ; 于 5 月 
18 日 至 5 月 22 日 候 取 热门 微 博 共计 6 694 条 , 作为 实 
验 的 测试 集 ， 用 来 验证 “特征 词 条 本 体 ” 在 语义 表述 上 
的 准确 性 ， 并 在 此 基础 上 进行 词 条 本 体 的 进化 。 

为 了 判断 测试 集中 的 热门 微 博 是 否 与 “ 魏 则 西 百 
度 推广 事件 ”话题 相关 , 采用 人 工 观 察 的 方式 ， 由 两 个 
观察 员 共 同 评定 测试 集中 热门 微 博 的 相关 性 。 本 次 实 
验 中 微 博 采集 的 时 间 分 布 及 是 否 与 话题 相关 的 结果 如 
表 1 所 示 : 


训练 集 数据 测试 集 数 据 
对 比 项 
13 日 14 日 15 日 16 日 17 日 18 日 19 日 20 日 2 恒 22 
主题 相关 的 微 博 数量 881 905 947 888 859 458 459 493 524 652 
主题 不 相关 的 微 博 数量 0 0 0 0 0 780 751 781 949 847 
总 计 881 905 947 888 859 1 238 1 210 1 274 1 473 1 499 


(2) 微 博 语 料 的 预 处 理 

本 次 实验 预 处 理 分 三 个 步骤 依 序 进行 : 使 用 
NLPIR-ICTCLAS2016 系统 "(Institute of Computing 
Technology, Chinese Lexical Analysis System) 进 行 微 博 
内 容 的 分 词 ， 导 人 “百度 汉语 分 词 词 库 ”， 提 高 了 分 词 
准确 性 ; 分 词 之 后 会 有 大 量 的 语气 词 、 助 词 ， 比 如 “ 哪 
里 ”“ 其 他 ”“ 是 的 ”等 词汇 没有 任何 实际 意义 ,使 用 
“哈工大 停 用 词 表 ”四 川 大 学 机 需 智 能 实验 室 停 用 词 
库 ”“ 百 度 停 用 词 列表 ”等 综合 去 除 语料库 的 停 用 词 ; 
对 出 现 的 一 些 网 站 引用 、 乱 码 等 信息 ， 比 如 “@”、 
“http”、“.com”、‘#” 等 ,使 用 正则 表达 式 进 行 匹 配 去 除 
无 关 词 汇 。 经 过 文本 预 处 理 , 实现 了 对 微 博 语 料 库 的 
分 词 与 去 杂 , 得 到 词汇 21 634 个 。 
4.2 ”实验 方法 

本 文 使 用 训练 集 的 数据 实现 初始 本 体 的 自动 生 
成 ,使 用 初始 本 体 在 测试 集中 寻找 高 于 进化 阔 值 T, 的 
微 博 , 利用 跟踪 结果 实现 词 条 本 体 的 进化 。 


(1) 初始 特征 词 条 本 体 的 生成 

在 训练 集中 去 除 出 现 次 数 少 、 对 内 容 表 达 没 有 太 
大 意义 的 低频 词 ， 使 用 微 博 出 现 频率 大 于 阔 值 Tv 的 
名 词 或 动词 作为 特征 词 ， 此 处 阔 值 T, 取 0.01, 然后 按 
照 特 征 词 条 抽取 算法 ,抽取 共 现 概率 高 于 阔 值 Tu 的 
特征 词组 成 特征 词 条 进而 生成 “特征 词 条 本 体 "C, 此 
处 浆 值 Tu 取 0.015。 C 中 部 分 特征 词 条 如 图 2 所 示 : 


[车 件 /in, 推 广 /wn, 歼 则 西 /nr] [ 维 广 /vn, 旺 jwshi, 百 度 /nz] 
[过 件 /n, 推 广 /vn, 百 度 /nz] [ 蕉 广 /vn, 旺 jvshi, 药 则 西 /nr] 
[ 难 广 An 百度 /nz 黎 则 西 /nn] 唐 忻 /n, 推 广 hn, 是 /vshi] 
[ 莒 件 /jn, 旺 /vshi, 百 度 /nz] 鞋 件 jn, 看 /v 黎 则 西 /nq] 
[硬件 /n, 且 /vshi. 歼 则 西 /nr] 壤 件 /n, 百 度 /nz 看 和 

[ 旺 和 Ashi, 百 度 /nz, 歼 则 西 /nq] [百度 /nz, 看 六 , 闪 则 西 /pq 


图 2 初始 “特征 词 条 本 体 ” 中 部 分 特征 词 条 结果 


在 初始 “特征 词 条 本 体 ” 的 基础 上 , 依据 特征 词 节 
点 权重 的 生成 算法 , 依次 生成 词 条 权重 、 关 系 权重 、 
与 特征 词 权 重 。 并 对 比 传统 基于 词 频 的 TF-IDF 算法 


Dhttps://github.com/NLPIR-team/NLPIR/tree/master /NLPIR-ICTCLAS. 
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的 特征 词 权 重 , 对 比 结果 如 图 3 所 示 : 
喜 件 /n 0.085400 百度 /nz 0.108776 
推广 /vn 0.070311 淮 广 An 0.096503 
百度 /nz 0.069240 是 vshi 0.080982 
看 /v 0.061486 事件 /n 0.078995 
是 Avshi 0.055976 歼 则 西 /nr 0.073033 
歼 则 西 /nr 0.047372 有 /vyou 0.045181 
率 Af 0.047012 人 An 0.036250 
医院 /n 0.038451 看 /v 0.033398 
这 /rzv 0.037203 能 0.030082 
度 /qv 0.033184 医院 /n 0.029677 
能 fv 0.029045 率 Af 0.027885 
人 An 0.028235 这 /rzv 0.023919 
训 /n 0.022512 事 /n 0.021894 
全 文 /n 0.022232 没有 /jv 0.019013 
有 /vyou 0.021270 去 /vf 0.018795 
(a) TF-IDF 算 法 (b) 本 体 方法 
图 3 权重 最 高 的 20 个 特征 词 权 重 对 比 图 


通过 对 比 两 种 方法 , 可 以 看 出 , 在 使 用 本 文 方法 
后 , “ 魏 则 西 百度 推广 事件 ”话题 中 “百度 ”、“ 魏 则 西 "等 
特征 词 的 权重 提高 ， 而 与 话题 相关 度 较 低 的 特征 词 如 
“看 ”、“ 度 ”、“ 全 文 ”的 权重 明显 降低 。 使 用 Gephi 软 
件 对 词 条 本 体 中 的 特征 词 关系 进行 可 视 化 展示 , 依 序 
处 理 特征 词 条 ,如 [事件 /n, 百度 /nz, 魏 则 西 /nr], 按照 
特征 词 条 的 顺序 ， 以 箭头 进行 串联 , 生成 该 词 条 对 应 
的 线路 : 事件 -> 百度 nz -> 魏 则 西 hr 处 理 完 全 部 的 
特征 词 条 ， 即 可 生成 初始 词 条 本 体 的 特征 词 关 系 如 图 
4 所 示 : 


图 4 初始 词 条 本 体 的 特征 词 关系 图 


Dhttps://gephi.org/. 
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(2) 基于 跟踪 结果 的 本 体 进化 

在 初始 “特征 词 条 本 体 ” 指 导 下 对 测试 集 进行 话题 
跟踪 , 使 用 公式 (5) 计 算 一 条 微 博 与 “特征 词 条 本 体 ” 的 
相似 度 。 因 为 微 博 本 身 的 内 容 较 短 并 且 需 要 选择 相似 
度 高 的 微 博 对 词 条 本 体 进行 进化 , 如 果 微 博 数量 太 少 
的 话 会 影响 后 续 本 体 进化 的 效果 , 所 以 结合 实验 结果 ， 
设置 判断 冰 值 Ti =0.3， 进 化 阔 值 工 =0.4， 可 得 词 条 本 
体 在 测试 集中 的 跟踪 结果 如 表 2 所 示 : 

表 2 测试 集中 微 博 的 时 间 分 布 与 话题 跟踪 结 


对 比 项 02 上 
相似 度 大 于 判断 闽 值 
的 微 博 数量 468 450 522 529 647 
相似 度 大 于 进化 阔 值 
的 微 博 数量 132 130 122 104 200 


选择 18 日 至 22 日 中 相似 度 大 于 进化 阔 值 工 的 
688 条 微 博 作为 话题 跟踪 结果 对 “ 魏 则 西 百 度 推 广 事 
件 ” 的 话题 本 体 进行 改进 与 完善 , 实现 本 体 进 化 , 进化 
后 的 特征 词 关系 如 图 5 所 示 : 


. 去 钨 / 
彰 , 1 人 @! 新 次/i 要 


首 鲁 内 者 /1 起 和 vf 了 到， 
届 傅 /sy s 


图 5 本 体 进化 后 的 特征 词 关系 图 


对 比 图 4 与 图 5, 可 以 看 出 , 进化 后 的 “特征 词 条 
本 体 ” 在 表述 新 闻 话 题 时 语义 更 加 丰富 : 特征 词 与 特 
征 词 关 系 的 数量 明显 增长 ， 以 本 次 “ 魏 则 西 百 度 推广 
事件 ”为 例 , 初始 “特征 词 条 本 体 ” 共 有 特征 词 条 7 421 
个 , 特征 词 节 点 39 个 , 特征 词 关 系 781 个 , 在 经 过 本 
体 进化 后 ,共有 特征 词 条 24 564 个, 特征 词 节点 67 个 ， 
特征 词 关系 1 818 个 ; 更 加 能 够 反映 话题 下 子 事件 的 
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语义 ， 例 如 观察 进化 后 的 特征 词 关系 图 中 [事件 mn， 发 
表 人 心 魏 则 西 mr]、[ 发 表 /v， 百 度 mz, 魏 则 西 /nr]、 [中国 
/ns, 发 表 /w 莆田 /ns]、[ 媒 体 /mn, 发 表 /v, 责任 加 、[ 媒 
体 和 ， 发 表 必 责任 问 ] 等 词 条 可 以 获知 该 话题 下 关于 
媒体 问 责 魏 则 西 事 件 的 相关 内 容 。 
4.3 ”实验 分 析 

(1) 话题 跟踪 实验 的 设计 

为 了 验证 “特征 词 条 本 体 ” 在 语义 表达 上 的 有 效 
性 , 本文 设计 了 与 TF-IDF 算法 的 对 比 实验 ， 比 较 两 种 
方法 在 话题 跟踪 上 的 效果 , 效果 更 好 的 方法 即 为 在 语 
义 表述 上 更 好 的 方法 。 

基于 TF-IDF 算法 的 话题 跟踪 与 本 体 方法 指导 下 
的 话题 跟踪 流程 大 致 相同 ， 都 依赖 于 公式 (3) 的 相似 度 
计算 及 阔 值 判定 ， 唯 一 不 同 的 是 特征 词 权重 的 确定 ， 
TF-IDF 是 在 词 频 的 基础 上 ,对 每 个 词 分 配 一 个 “重要 
性 ”权重 ,其 计算 公式 如 下 : 


fe allDoc 
xlog( ) (6) 
max(t) 


doc(wi)+1 

其 中 ，tw 为 特征 词 wi 在 语 料 中 出 现 的 次 数 ， 
max(t) 为 语 料 中 出 现 次 数 最 多 的 词 的 次 数 ,两 者 相 除 
即 为 词 频 (Term Frequency)，allDoc 是 语 料 中 文档 总 
数 ，doc(wi) 是 包含 w; 的 文档 总 数 , 求 对 数 之 后 即 为 
道 文档 频率 (Inverse Document Frequency)， 词 频 与 逆 
文档 频率 的 乘积 即 为 wi 的 TF-IDF 权重 。 

(2) 话题 跟踪 判断 标准 

NIST 为 TDT 建立 了 一 套 完整 的 评测 体系 "", 使 
用 损耗 代价 (Cp )worm 作为 系统 的 评价 指标 ， 此 值 越 
小 则 表示 系统 性 能 越 好 ， 其 计算 公式 如 下 : 


Cpet = CMiss xPMiss x Prarget 十 CFA X PFA X Phon-Target (7) 


Qt-idf(wi) = 


Cpet 


min(CMiss x Prarget» CFA x Pion.Target ) 

其 中 ，Cwis 和 Crs 分 别 代表 漏 报 率 和 误 报 率 的 
代价 系数 , 在 TDT4 中 Cyiss 和 CFA 分 别 取 值 为 1 和 
0.1， 认 为 漏 报 代价 比 误 报 代价 高 很 多 ; Prases 和 
Pion-Target 是 先 验 目标 概 率 ( Pr onsiitget =|a Prarget )， 
Prases 一 般 取 0.0205，Pwis 和 Pr 分 别 是 系统 漏 报 率 
和 误 报 率 ,两 者 均 是 越 小 越 好 , 但 是 两 者 之 间 存 在 一 
定 的 矛盾 ,一 般 情况 下 漏 报 率 较 低 的 误 报 率 会 较 高 ， 
而 误 报 率 较 低 的 漏 报 率 会 较 高 ,计算 公式 如 下 : 


(8) 


(Cpet)Norm 二 
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系统 中 未 识别 的 相关 微 博 数 


汤 报 半 Py = 洁 科 库 让 指 述 该 话题 的 仆 博 总 *1 。 (9) 
荐 | 定 交 50 示 关 微 博 老 
误 报 率 p。_ 判定 为 相关 的 不 相关 微 博 雪 10096 (10 


语料库 中 与 该 话题 不 相关 的 微 博 总 数 
(3) 话题 跟踪 结果 分 析 
使 用 判断 间 值 (Ti =0.3) 判 断 微 博 内 容 是 否 主题 相 
关 ， 对 两 种 话题 跟踪 方法 的 第 一 次 话题 跟踪 实验 结 
对 比如 表 3 所 示 : 


表 3 第 一 次 话题 跟踪 结果 分 析 
对 比 项 国有 22 | 证 
We 站 75 89 94 ll8 468 
0 79 5 46 87 139 404 
51 71 63 9 136 414 
， 89 44 75 92 134 434 
ni 458 459 493 524 652 2586 
以 | 导 效 里 
ee nt 780 751 781 949 847 4108 


按照 TDT4 评价 方法 , 分 别 计算 两 种 方法 话题 跟 
踪 结 果 的 漏 报 率 、 误 报 率 和 损耗 代价 并 进行 对 比分 析 ， 
结果 如 表 4 所 示 : 


表 4 TF-IDF 与 本 体 方法 的 话题 跟踪 结果 的 漏 报 率 、 
误 报 率 、 损 耗 代 价 对 比 


指标 TF-IDF 方法 本 体 方法 
漏 报 率 PMiss 0.1810 0.1562 
误 报 率 PFA 0.1008 0.1056 
损耗 代价 (Cpet)Norm 0.6749 0.6736 


从 表 4 的 结果 可 以 看 出 : 基于 词 条 本 体 的 话题 跟 
踪 方 法 比 TF-IDF 方法 的 漏 报 率 有 一 定 的 下 降 , 但 是 
误 报 率 与 损耗 代价 并 没有 明显 的 提升 , 综合 来 看 , 初 
台词 条 本 体 的 跟踪 结果 与 TF-IDF 方法 效果 相当 。 

然后 将 寻找 到 的 相似 度 大 于 进化 国 值 的 微 博 加 
入 到 词 条 本 体 的 训练 集 ， 重 新 训练 出 进化 的 “特征 词 
条 本 体 ” 并 进行 第 二 次 话题 跟踪 实验 , 实验 结果 如 表 
5 所 示 。 
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表 5 第 二 次 话题 跟踪 结果 分 析 
对 比 项 ne El ne | 0 | 2 2 El 


计算 进化 后 “特征 词 条 本 体 " 方 法 的 话题 跟踪 结 
的 漏 报 率 、 误 报 率 和 损耗 代价 ,并 与 表 4 中 初始 本 体 、 
TF-IDF 方法 的 计算 结果 进行 对 比分 析 ,， 如 表 6 所 示 : 
表 6 三 种 方法 的 漏 报 率 、 误 报 率 、 损 耗 代 价 对 比 


指标 TF-IDF 方法 “初始 本 体 ”进化 本 体 
漏 报 率 PViss 0.1810 0.1562 0.1261 
误 报 率 PFA 0.1008 0.1056 0.0964 
损耗 代价 (Cpet)Norm 0.6749 0.6736 0.5985 


从 表 6 的 实验 结果 可 以 看 出 : 经 过 进化 之 后 的 词 
条 本 体 在 漏 报 率 、 误 报 率 、 损 耗 代 价 上 都 要 优 于 前 两 
种 方法 ， 表 明 进 化 后 的 词 条 本 体 的 话题 跟踪 效果 更 优 ; 
其 中 漏 报 率 的 性 能 显著 提高 ,这 主要 是 由 于 进化 后 的 
“特征 词 条 本 体 ” 的 节点 和 关系 大 大 增加 ,更 能 表示 目 
标 话题 语义 信息 ， 能 够 更 准确 地 跟踪 话题 ; 就 损耗 代 
价 而 言 ， 根据 损 耗 代价 的 计算 公式 ，TDT 评测 更 加 重 
视 误 报 率 对 评测 结果 的 影响 ,因此 误 报 率 较 小 的 差别 
导致 在 损耗 代价 之 间 的 差 值 没有 两 者 漏 报 率 之 间 的 差 
值 明显 ; 本 体 方法 对 于 话题 跟踪 结果 的 误 报 率 并 没有 
明显 的 提高 , 后 续 对 算法 的 改进 应 集中 在 维持 当前 低 
漏 报 率 水 平 的 情况 下 ,尽量 减少 误 报 率 。 

本 次 实验 结果 显示 基于 “特征 词 条 本 体 ” 的 话题 跟 
踪 的 效果 是 优 于 TF-IDF 算法 , 并 且 通 过 本 体 进化 , 能 
够 进一步 优化 话题 跟踪 结果 。 因 此 , 证 明了 本 文 提出 
的 基于 词 关系 的 “特征 词 条 本 体 ” 在 动态 热门 话题 的 语 
义 表述 上 是 有 效 的 。 


S 结 语 


本 文 从 动态 热门 话题 新 闻 中 的 词汇 出 发 , 将 共 现 
频率 高 的 特征 词组 合成 特征 词 条 设计 生成 “特征 词 条 
本 体 ” 在 初始 本 体 的 指导 下 进行 话题 跟踪 ,利用 跟踪 
结果 对 话题 本 体 的 概念 和 关系 进行 改进 ， 完 成 “特征 
词 条 本 体 ” 的 进化 。 通 过 实验 证 明了 “特征 词 条 本 体 ” 
是 一 种 表述 更 加 准确 的 语义 模型 , 并 且 可 以 满足 动态 
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热门 话题 快速 表达 的 实际 需求 。 但 是 目前 本 体 语义 表 
述 的 效果 过 于 受 人 工 闪 值 设置 的 影响 ,在 未 来 的 研究 
中 可 以 考虑 引入 深度 学 习 相 关 的 模式 ， 以 尽 可 能 降低 
人 工 干 预 进而 提高 “特征 词 条 本 体 ” 的 语义 表达 准确 性 。 
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Automatically Building “Feature Items Ontology”for Trending Topics 


Ma Jing He Xuefeng Jian Xuwen 
(College of Economic and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China) 


Abstract: [Objective] This paper aims to propose an algorithm to build “Feature Items Ontology”. [Context] Trending 
topics online are constantly changing and involve extensive fields. The existing research on automatically creating 
Ontology is limited to specific areas, which cannot effectively process the dynamic trending topics. [Methods] First, we 
analyzed the contents of major events from the trending topics. Second, we designed an algorithm automatically 
generating the Ontology. Third, with the guidance of initial Ontology, proposed an evolutionary algorithm to track the 
changing topics. [Results] Using the case of “Wei Zexi and Baidu” as an example, we collected 11,174 Sina Weibo 
posts to conduct two rounds of experiment. We initially extracted 7,421 feature items, 39 key nodes, and 781 key 
relationships. For the evolutionary results, we got 24,564 feature items, 67 key nodes, and 1,818 key relations. The 
missing rates, the false positive rates, and the loss costs were 0.1261, 0.0964 and 0.5985, which were all better than 
those of the TF-IDF algorithm. [Conclusions] The “Feature Items Ontology” is more accurate than the single word 
Ontology description, and is easier to calculate the semantic similarity. It is an appropriate method to retrieve semantic 
information from the dynamic trending topics. 


Keywords: Feature items Ontology generation Ontology evolution Topic tracking 


Mellon 基金 会 资助 BitCurator 进行 扩展 ， 以 改善 对 数字 原生 资源 的 分 析 和 访问 功能 


北 卡罗来纳 大 学 教堂 山 分 校 于 近日 从 Andrew W. Mellon 基金 会 获得 一 笔 75 万 美元 的 基金 资助 , 用 于 对 BitCurator NLP 
进行 扩展 。BitCurator NLP 项 目 旨 在 开发 能 将 自然 语言 处 理 (NLP) 方 法 应 用 于 数字 原生 图 书馆 馆藏 、 档 案 馆 馆藏 和 博物 馆 馆 
藏 的 相关 软件 和 协议 。 项 目 为 期 两 年 , 所 创建 的 新 工具 将 使 得 图 书馆 、 档 案 馆 和 博物 馆 领域 的 专业 人 员 能 够 更 有 效 和 更 高 效 
地 流通 数字 馆藏 资源 ,并 最 终 使 得 用 户 在 搜索 信息 或 文档 时 更 容易 发 现 并 访问 这 些 馆藏 资源 。 

BitCurator NLP 将 以 BitCurator 和 BitCurator Access 项 目 为 基础 ,， 这 两 个 项 目 则 在 开发 并 分 发 工具 以 帮助 图 书馆 档案 馆 
和 博物 馆 管理 快速 增长 的 具有 文化 价值 的 数字 资源 。 

BitCurator 开发 了 一 个 开源 软件 环境 ,便于 将 资源 从 便携 式 媒体 (如 软盘 闪存 驱动 器 和 硬盘 驱动 器 ) 迁 移 到 更 可 持续 的 环 
境 。 用 户 可 以 创建 磁盘 上 映像， 分析 文件 和 文件 系统 ,提取 数据 和 元 数据 ,以 及 识别 和 编辑 敏感 信息 ， 等 等 。 

BitCurator Access 通过 BCA Webtools 进一步 增强 了 BitCurator 的 功能 ， 人 允许 用 户 动态 浏览 磁盘 映像 的 文件 系统 ， 以 及 搜 
索 许 多 常见 文件 类 型 的 内 容 。BitCurator Access 还 开发 了 用 于 修改 敏感 信息 的 工具 ,并 尝试 使 用 仿真 作为 磁盘 映像 内 容 的 访 
问 机 制 。 BitCurator 和 BitCurator Access 的 产品 和 相关 社区 由 独立 的 、 成 员 驱 动 的 BitCurator 联盟 在 维护 。 

BitCurator NLP 将 生成 一 个 开源 软件 ， 用 于 提取 、 分 析 和 生成 馆藏 中 数字 资源 文本 的 相关 特征 的 报告 。 该 软件 还 将 帮助 
图 书馆 、 档 案 馆 和 博物 馆 改 进 或 实施 NLP 功能 ， 以 从 数字 馆藏 中 读 取 文件 ,并 为 最 终 用 户 按 需 生 成 报告 。 

(编译 自 : https://librarytechnology.org/news/pr.pl?id=21961) 
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